#agentes web

¿Dónde falló? Evaluación de proceso de agentes web con seguimiento semántico

Evaluación de procesos con seguimiento semántico revela diferencias ocultas entre agentes web. Aprende a mejorar su rendimiento.

2026-06-16 · 2 min

Killbench: ¿Podemos detener la IA maliciosa?

Killbench evalúa si podemos detener una IA maliciosa usando solo señales externas. Descubre los métodos y resultados en este benchmark.

2026-06-16 · 2 min

Corrección Especulativa con Rollback para Imitación de Agentes Web Diversos

Descubre cómo SRC mejora el entrenamiento de agentes web por imitación, reduciendo errores y aumentando diversidad. Resultados en WebArena-Infinity.

2026-06-12 · 2 min

¿Quién paga el precio? Benchmarking de inyección de prompts para agentes web

Descubre cómo un benchmark centrado en stakeholders revela vulnerabilidades en agentes web impulsados por IA. ¿Quién paga el precio de la inyección de prompts?

2026-06-12 · 3 min

MemVenom: Envenenamiento Activado de Memorias Multimodales en Agentes Web

Conoce MemVenom: el ataque que envenena la memoria de los agentes web y amenaza la seguridad de la IA multimodal. ¡Descubre cómo protegerse!

2026-06-10 · 2 min

Acciones tipadas para agentes web en lugar de clics

Descubre por qué los agentes web deben usar acciones tipadas (verbos web) en lugar de clics para mayor fiabilidad y auditabilidad.

2026-06-09 · 2 min

AliyunConsoleAgent: agentes web en cloud real con destilación y refuerzo

AliyunConsoleAgent entrena agentes web para verificar documentación en consolas cloud. Combina destilación y RL, logrando 63.52% éxito con 92% menos costo.

2026-06-09 · 3 min

SlimSearcher: Agentes Web Eficientes con Puertas de Recompensa Adaptativas

Descubre cómo SlimSearcher optimiza agentes de búsqueda profunda, reduciendo costos computacionales hasta 58% sin sacrificar precisión.

2026-06-08 · 2 min

¡Es una TRAP! Benchmark de persuasión para agentes web

Descubre cómo el benchmark TRAP expone vulnerabilidades críticas en agentes web ante inyecciones de prompt. Hasta 43% de modelos caen en estas trampas.

2026-06-08 · 2 min

AsyncWebRL: RL multi-paso eficiente para agentes web visuales

Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.

2026-06-05 · 1 min

Aprendizaje online de habilidades con recuperación dinámica basada en estado

SGDR revoluciona el aprendizaje de habilidades en agentes web: recuperación dinámica basada en estado mejora un 10% la tasa de éxito en WebArena. ¡Conoce los detalles!

2026-06-04 · 2 min